#AI 音樂 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#AI 音樂

Google發佈Lyria 3 AI音樂模型，Gemini一鍵生成30秒高保真歌曲

Google旗下DeepMind發佈了最新AI音樂生成模型Lyria 3，該模型已率先整合至Gemini桌面端應用，未來幾日將逐步登陸移動端，面向全球18歲及以上使用者免費開放。據悉，作為Lyria系列模型的重大升級版本，Lyria 3支援通過文字、圖片、視訊等多模態輸入生成原創音樂，進一步降低了音樂創作的專業門檻，同時聯動YouTube生態，為內容創作者提供全新工具。根據官方介紹，Lyria 3相較於前代模型實現了三大核心升級。首先，該模型支援自動生成歌詞，使用者無需自行撰寫，只需通過提示詞描述音樂的主題、風格或情緒，模型便可自動創作匹配的歌詞與旋律。其次，使用者可實現更精細的創作控制，通過提示詞精準指定曲風、人聲類型、節奏速度等音樂元素。此外，Lyria 3生成的音軌在樂器層次、人聲真實感和音樂結構上均有顯著提升，音質更接近專業製作水準，打破了前代模型輸出內容相對單薄的侷限。在使用場景與操作便捷性上，使用者只需打開Gemini應用，在“工具”下拉菜單中找到帶有音符圖示的“音樂”選項，即可啟動創作功能，Google同步發佈的Lyria 3提示詞指南，可幫助使用者快速上手。此外，Lyria 3不僅整合於Gemini應用，還同步接入了YouTube的Dream Track功能，助力短影片創作者為Shorts生成定製化背景音樂，該功能此前僅面向美國使用者，此次隨Lyria 3的發佈向全球擴展。此外，開發者可通過Google Cloud上的Vertex AI API使用Lyria模型（當前API版本為lyria-002），以程式設計方式生成音樂，適配視訊配樂、廣告創作、遊戲音效製作等商業場景。使用權限方面，Lyria 3目前支援英語、德語、西班牙語、法語、印地語、日語、韓語和葡萄牙語8種語言，後續將逐步增加更多語言支援。所有18歲及以上的Gemini使用者均可免費使用該功能，而訂閱Google AI Plus、AI Ultra等付費服務的使用者，將享有更高的音樂生成額度，具體額度Google暫未明確披露。 (TechWeb)

Google Lyria 3（AI音樂生成模型）發佈 + AI 音樂模型對比

Google DeepMind 推出的 Lyria 3 （2.19發佈）是其目前最先進的 AI 音樂生成模型，已正式整合進 Gemini 應用程式中。與之前的版本相比，它不再僅僅是實驗性質，而是成為了一個功能齊全的創意工具，字、圖片、視訊都能秒變音樂。Lyria 3 的功能細節非常豐富，它不僅是一個“文字轉音樂”的工具，更是一個深度整合的多模態創作引擎。以下是根據最新技術文件整理的具體功能細節：1. 多模態輸入（Multimodal Inputs）Lyria 3 最強大的地方在於它能“看圖/視訊說話”：圖像轉音樂：你可以上傳一張日落、聚會或寵物的照片，Lyria 3 會分析照片的色彩、氛圍和主體，生成一段情緒契合的背景音樂。視訊轉音樂：支援上傳視訊短片，模型會捕捉視訊的節奏感（如剪輯點或動作頻率）來合成配樂。跨媒介觸發：你甚至可以把一封“入職歡迎郵件”或一段“冷笑話”作為提示，它會將其轉化為一段充滿幽默感或職業感的音樂短片。2. 音樂控制與生成參數對於有進階需求的使用者，Lyria 3 提供了更專業的調節維度：時長與格式：生成音軌的標準長度為 30 秒（在 Vertex AI 專業版中可精確到 32.8 秒），輸出格式為高品質的 48kHz WAV 檔案。負向提示詞 (Negative Prompting)：你可以明確要求“不要人聲”、“不要電子合成器”或“避開憂鬱的情緒”，以精準排除不需要的元素。種子值 (Seed)：支援設定 Seed 值，這意味著如果你對某次生成的旋律很滿意，可以固定 Seed 並微調提示詞，從而實現可重複、可迭代的創作。自動歌詞與演唱：相比 Lyria 2 隻能生成純音樂，Lyria 3 可以根據主題自動編寫歌詞，並以極其自然的人聲（支援多種語言）演唱出來。3. 全自動化配套功能視覺包裝：每次生成音樂時，系統會呼叫 Nano Banana 圖像模型，同步生成一張風格統一的自訂專輯封面圖。即時“即興” (Lyria RealTime)：通過 API，Lyria 3 具備低延遲的“即興演奏”能力，能像樂隊樂手一樣根據你不斷輸入的指令即時改變正在播放的音樂（如改變 BPM 或增加樂器密度）。4. 內容安全與識別SynthID 數字水印：這是 Google 的核心技術，在音訊頻譜中嵌入人耳聽不到、但演算法可識別的水印。即使經過壓縮、剪輯，仍能追溯其為 AI 生成。版權過濾：內建了嚴格的過濾器。如果你要求“創作一段像周杰倫風格的歌”，它會生成具有“華語流行/鋼琴”特徵的原創樂曲，而不會直接挪用其受版權保護的旋律或音色。相比於目前市面上主流的 AI 音樂模型（如 Suno 和 Udio），Google 的 Lyria 3（及其背後的 Lyria 系列架構）走的是一條完全不同的道路。如果說 Suno 和 Udio 是“AI 唱片公司”，那麼 Lyria 3 更像是“AI 創意副駕駛”。以下是 Lyria 3 的核心優勢對比：1. 真正的“多模態”理解力Suno/Udio：主要依賴文字（Text-to-Audio）。雖然現在也支援音訊上傳（Audio Upload），但大多是作為旋律參考。Lyria 3 的優勢：它深度整合了 Google 的視覺能力。你可以直接上傳照片或視訊，它能自動“讀懂”畫面裡的情緒、節奏和場景，並生成匹配的 BGM。這種“視覺到音樂”的直覺化創作是其他模型目前難以比擬的。2. 創作的“可互動性”與“精準度”Suno/Udio：傾向於“抽卡式”生成。你輸入一段話，它給你 2-4 分鐘的完整歌曲。如果你不喜歡某一部分，修改起來相對死板（儘管 Udio 的 Inpainting 局部重繪功能正在改善這一點）。Lyria 3 的優勢：強調即時性與細粒度控制。它可以根據你的指令即時調整樂器密度或節奏 (BPM)。它可以處理複雜的指令，比如“在 15 秒處加入一段激昂的鼓點，同時保持人聲的輕柔”，這在專業音訊製作中更具實用價值。3. 版權與合規性的“國家隊”標準Suno/Udio：目前正面臨大型唱片公司的侵權訴訟（如索尼、環球等），因為它們的訓練資料被質疑包含大量版權音源，且有時會生成與知名歌手極度相似的聲音。Lyria 3 的優勢： * 合法授權： Google 與 YouTube 旗下的眾多藝術家（如 Charlie Puth、T-Pain 等）達成了直接合作，通過 Dream Track 功能合法使用他們的聲線特徵。強制水印：內建 SynthID。這讓 Lyria 3 生成的內容在專業分發管道（如廣播、商業廣告）中更具安全性，因為它的身份是可追溯、可審計的。4. 生態系統的整合Suno/Udio：獨立平台。生成的音樂需要你手動下載，再匯入剪輯軟體。Lyria 3 的優勢：它是 Gemini 全家桶的一部分。你可以先讓 Gemini 寫詩，然後一鍵轉為歌詞，再由 Lyria 生成音樂，最後由 Nano Banana 生成封面。它與 YouTube Shorts 無縫銜接，創作者可以直接在視訊編輯流中生成專屬配樂。出路在那裡？大部分使用者不關心大模型，使用者只關好用不好用。圖形圖像裡面的例子，美圖秀秀，或者剪映等產品，使用者並不會關心底層的大模型到底是不是自研發或者套殼其他家，只需要好用就行。做好應用層，滿足不同類型使用者的需求。給專業的使用者，做生產力工具，基於這個工具能賺到錢。給大眾使用者，做玩具，和AI修圖一樣的可以簡單做出來一些好玩，可以拿出來炫耀的東西。 (出海流量玄學研究)

拍照就能出歌！GoogleGemini攜Lyria 3殺進AI音樂圈，7.5億使用者免費玩，Suno們慌了？

想給朋友圈的日常片段配一首專屬BGM，卻苦於不會寫詞編曲；想給朋友的生日準備一首定製祝福歌，卻連簡譜都認不全；想給自家貓咪的曬太陽日常配一首慵懶小曲，翻遍版權庫都找不到合心意的旋律——這些普通人的小遺憾，如今被Google一出手就徹底解決了。2026年2月18日，Google正式在Gemini中上線了旗下DeepMind研發的最新AI音樂生成模型Lyria 3，直接把AI音樂創作的門檻踩到了泥土裡。從文字、圖片、視訊到音樂，Gemini終於補齊了多模態創作的最後一塊拼圖，而這一次，Google直接把AI音樂從「小眾發燒友的工具」，變成了7.5億月活使用者人人能玩的「大眾玩具」，也讓此前在AI音樂賽道風頭無兩的Suno、Udio們，瞬間感受到了刺骨的寒意。Lyria 3最動人的地方，不是冰冷的參數升級，而是把「創作一首歌」這件事，變得比發朋友圈還要簡單。Google為普通使用者準備了三種零門檻玩法，網頁端今天就能上手，手機端也將在幾天內完成推送。最基礎的文字生成音樂，徹底解放了普通人的創作欲。你不用懂樂理，不用寫歌詞，那怕只是隨口說一句「寫一首搞笑的90年代R&B慢板情歌，主題是一隻襪子終於找到了它的另一半」，或是「給媽媽做一首非洲鼓點的歡快歌曲，紀念小時候她給我做的烤大蕉」，Gemini都能在30秒內，給你交出一首完整的成品——有量身定製的歌詞，有貼合情緒的演唱，有層次豐富的編曲，甚至連歌曲封面，都會由Nano Banana Pro模型自動生成，直接就能下載分享。更讓人驚喜的是圖片與視訊生成音樂，這也是Google甩開一眾競品的王牌能力。你只需要上傳一張照片、一段視訊，Gemini就會自動分析畫面裡的內容、情緒與故事，自動填詞譜曲。貓咪窩在陽台曬太陽的照片，能生成一首慵懶鬆弛的爵士小曲；戶外徒步的風景視訊，能生成一首開闊治癒的民謠；甚至是朋友聚會的搞怪合照，也能變成一首歡快熱鬧的流行歌。不用你絞盡腦汁寫提示詞，畫面本身，就是最好的創作靈感。那怕你完全沒有創作靈感，Google也準備了現成的範本與動態建議，從lo-fi節拍、拉丁流行到可愛金屬樂，幾十種風格任選，改一改細節就能生成屬於自己的歌，真正做到了「人人都能當30秒的音樂家」。相比前代模型，Lyria 3的升級堪稱脫胎換骨。此前的Lyria模型，還需要使用者自己提供歌詞，而現在，從歌詞創作、編曲譜曲到人聲演唱、封面製作，全流程一步到位。使用者還能對音樂風格、人聲特點、節奏快慢等核心元素進行精細調整，生成的曲目也擁有了更真實的聽感、更複雜的編曲結構，徹底擺脫了早期AI音樂的生硬感。更關鍵的是，Google從一開始就避開了AI音樂行業最大的雷區——版權爭議。此前Suno、Udio都曾被三大唱片巨頭告上法庭，關於訓練資料版權、藝術家聲音模仿的爭議從未停歇。而Google給出了一套更周全的解決方案：Lyria 3從底層就定位於「原創表達」，而非模仿現有藝術家。即便你在提示詞裡提到了某個歌手的名字，它也只會將其作為寬泛的風格參考，而非直接復刻其聲音與作品。同時，所有用Lyria 3生成的曲目，都會嵌入Google的SynthID隱形水印，既不會影響聽感，又能精準識別音訊是否為GoogleAI生成。Gemini也同步上線了音訊驗證功能，你只需上傳一段音訊，就能快速確認它是否出自Google的AI工具，這套此前已經在圖片、視訊領域成熟應用的技術，如今補上了音訊領域的最後一塊短板。Google還設定了內容過濾機制與侵權舉報通道，儘可能降低版權風險，這份穩妥，也是初創玩家難以比擬的優勢。很多人會問，Lyria 3隻能生成30秒的曲目，比起能生成完整歌曲的Suno、Udio，是不是根本不夠打？但恰恰是這個30秒的限制，藏著Google最精準的野心。Google從一開始就沒打算把Lyria 3做成專業音樂人的生產力工具，它瞄準的，是7.5億普通使用者的日常表達需求——朋友圈的配樂、短影片的BGM、給朋友的祝福小歌、記錄日常的小趣味，這些場景，30秒剛剛好。專業音樂市場終究是小眾的，而普通人的日常創意表達，才是真正的兆級市場。更別說Google還手握YouTube這個全球最大的短影片平台，隨著Lyria 3的上線，此前僅對美國使用者開放的YouTube Dream Track功能，也正式開啟全球推送。短影片創作者可以直接用Lyria 3，根據視訊內容生成專屬的原創配樂，不管是帶歌詞的演唱段落，還是純器樂的背景音，都能一鍵搞定，徹底告別了公共版權庫的同質化與版權風險，直接打通了「創作-生成-發佈」的完整閉環。這才是Suno、Udio們真正需要緊張的地方。它們還在卷「誰能生成更長、更專業的歌曲」，而Google直接換了賽道，用7.5億的海量使用者、零門檻的多模態創作能力、完整的內容生態，把AI音樂的全民化大門徹底推開了。當普通人拍張照就能免費生成一首專屬歌曲，當AI音樂從「需要特意學習的工具」變成「隨手就能用的日常功能」，賽道的遊戲規則，已經被Google徹底改寫。目前Lyria 3已經支援英語、德語、日語等8種語言，雖然暫不支援中文，但Google已經明確表示後續會擴展更多語言。可以預見的是，隨著Google的入場，AI音樂再也不是小眾圈子的狂歡，屬於每一個普通人的音樂創作時代，真的來了。(AI時代潮)

周亞輝想做AI版Spotify：日活衝到1個億，就不怕大廠“偷襲”

1月28日，崑崙天工正式發佈Mureka V8音樂生成模型，盲測主觀評分超過Suno V5。崑崙天工董事長兼CEO周亞輝親自為新模型發佈站台，並把“好的AI音樂”定義為一種新的品類，要錨定海外市場，做Al版的“Spotify”。在周亞輝的設想中，基於Mureka的AI音樂平台將採取完全免費的策略，隨著模型能力的增強，好的音樂能夠吸引大量熱愛音樂的全球使用者。他認為AI音樂的潛力可以與免費“短劇”平台類比，基於海量使用者、通過廣告分成等商業模式實現巨大的商業價值。周亞輝堅信技術領先一定是最深厚的護城河，模型做到SOTA最大的價值是獲得領跑的窗口期。比如，Mureka V8 模型在技術上的領先地位可以為崑崙天工爭取到半年左右的“窗口期”。利用公司深厚的海外產業積累與增長經驗，全力衝擊 1 億 DAU（日活）、3 億至 5 億 MAU（月活）的目標。只要能建立起這樣的流量規模，就能在短時間內“不怕大廠”。周亞輝有持續發佈《投資筆記》的習慣，因成功投中映客、趣店、達達等多個明星項目，他的投資觀點也會經常吸引人關注並引起行業討論。但是最近發佈的一篇投資筆記距離上一篇，已經間隔了一年。在1月28日的 Mureka V8 發佈會上，很久沒有公開露面的周亞輝，少見地開了個很小範圍的交流會。他坦誠，最近的精力很少在投資上了，前不久剛剛發佈的、在行業內引起了討論的投資筆記，是對過去經驗的總結，最近的精力都放在模型的技術上。在這篇引起廣泛討論的筆記中，他詳細分析了字節、阿里等頭部科技大廠在AI時代爭奪SuperApp的戰局，但是完全沒有提到任何一家“AI原生”公司，甚至也沒有剛剛上市的明星大模型公司智譜AI和Minimax。在周亞輝看來，大廠積累的產業厚度，是任何AI原生公司都不具備的。AI SuperApp只會在大廠中產生。但是，他也表示，很佩服這些AI原生創業公司，他們其實只要堅持自己的節奏、守住目前的陣地，就很好。在這場生成式AI浪潮剛剛開始的時候，周亞輝立即在矽谷深度調研，談到大洋彼岸的AI生態，周亞輝認為，美國資本市場對創新有著極高的推崇，這種環境賦予了創新公司極高的資本溢價，使它們的估值能在短時間內迅速劇升，從而形成巨大的先發優勢。在這種資本邏輯下，大廠即便後發追趕，也很難在短時間內踰越由高溢價夠成的競爭門檻，這使得像 OpenAI 這樣的公司在面對科技大廠圍剿時依然具備極強的生命力。以下為交流實錄（有刪減）：01如果 AI 音樂能創造一個新品類Q：目前國內押注AI 音樂賽道的公司相對較少，為什麼你們會持續看好並在這個方向發力？如果 AI 音樂能創造一個新品類，它在 ToC 端的潛力是什麼？周亞輝：我們並不是專門只選了音樂，而是在整個“崑崙天工”的大模型佈局中，對音訊、視訊、遊戲以及通用文字等每個賽道都進行了加碼和下注。之所以在音樂領域進展迅速，是因為團隊本身對音樂技術有很深的研究底蘊，此前在海外營運全球最大的K歌社區時，就積累了大量針對音樂社交玩法和 AI 演算法的經驗，所以這是水到渠成的結果。我判斷未來 1 到 3 年，這些領域都會被 AI 原生平台顛覆。在 2026 年初發佈的這一代視訊大模型中，已經出現了拐點，能夠連貫生成 30 到 60 秒的劇集片段，大幅提高了生產效率和“抽卡”成功率。而音樂將是第二個明顯爆發的產業，今天發佈的Mureka V8模型生成的歌曲，已經能讓大部分普通聽眾覺得好聽，這說明產品已經具備了被 C 端大規模接受並產生高留存的能力。Q：Mureka V8是否已經可以實現工業化，並可以服務於專業音樂人？周亞輝：整體來說，技術架構的持續升級、更先進的結構和更強的 AI 能力可以實現更大的創意空間。目前MurekaV8在旋律生成和製作各方面，已經能夠達到工業化的標準，可以為專業音樂人提供服務。Q：基於工業化的能力，對於海外版的推出有那些具體的動作或分步走的規劃？周亞輝：海外版的規劃將分為四個步驟實施。首先是提升 AI 模型的基礎能力，目前已經實現了搜尋功能。第二步是通過使用者與平台的聯動，去驗證那些 AI 生成的品類內容是優質的，通過使用者的實際消費成績來定義標準，建立起內容池。第三步是建立使用者留存機制，尋找新的內容消費和互動場景，類似於過往時代的 Feed 流推薦場，讓使用者不僅是消費內容，還能在裡面“玩起來”。最後一步是完善商業化機制和分成模式。Q：AI 音樂作品嚐試過跟人類的作品一起打榜嗎？周亞輝：雖然目前還沒嘗試，但很快就會開始。音樂產業很特別，如果不是頂流，很難火起來。我們下一步就是要通過大規模評測和嘗試，看 AI 作品“火”的機率是多少。如果 AI 創作“火”的機率能顯著高於人類，那它就完勝傳統創作模式了。Q：AI 音樂作為一個新品類，它和人類創作的歌相比，新在那裡？主要是因為創作方式嗎？周亞輝： “新”和“舊”其實是相對的。之前的模型大家能輕易聽出 AI 痕跡是因為模型能力不夠，如果未來模型能力持續增強，大家都在用 AI 寫歌，這個品類的界限也就不復存在了。Q：在 AI 創作過程中，人的核心作用是什麼？周亞輝：核心在於思想、情感和情緒的表達。你想表達什麼觀點或情緒，都可以通過 AI 來實現。未來，寫歌會成為一種像寫日記、寫文章一樣主流的表達方式，每個人都能用音樂表達出自己獨特的味道。023-5年內，DAU 過億是一個核心目標Q：如果 AI 音樂發展成有潛力的產業，技術能否成為安全的壁壘？後來者是否容易趕超開拓者？周亞輝：技術永遠是安全的壁壘。我從零開始見證Mureka音樂大模型技術一步步迭代非常難，這也就是為什麼像美國的 Anthropic 成立僅幾年就有3500億美金的估值，因為大家公認後來者趕上它是非常困難的。隨著模型能力的向上提升，想要進步一點點都需要付出巨大的努力。Q：未來基於Mureka的音樂平台生態是怎樣的？會同時做 ToB 和 ToC 嗎？周亞輝：我們會採取 ToB 和 ToC 平行的策略。Studio 工具是面向創作者（To Creator）的，創作者可以使用我們的工具發佈作品到各種平台，並賺取廣告分成。ToC 的 APP 可能會採用類似於短劇的免費廣告模式，以吸引海量使用者。此外，我們還通過 API 為商用音樂公司提供服務，在盲選測試中，AI 製作的音樂被客戶選中的機率已經超過了傳統曲庫，完全有商用價值了。Q：海外市場的拓展是基於崑崙原有的產業基礎嗎？國內市場又是如何考慮的？周亞輝：是的，我們在海外營運社區和做使用者增長都有成熟的經驗。在國內，要跟大廠競爭是非常不容易且沒必要的。在海外，大廠沒有做這個賽道，我們是在跟細分領域的對手競爭。國內市場我們更傾向於合作模式，今天已經與太合音樂合作，未來如果有可能的話，也希望和網易雲音樂等合作夥伴共同探索。Q：如何吸引傳統音樂人參與進來，共同開發市場？在這方面有什麼規劃？周亞輝：實際上音樂人的工作流已經發生了變化。很多音樂人已經開始使用 APP 上傳 demo 和自己的 vocal，讓 AI 協助編曲和延展創意，這極大地增強了工作效率。此外，我們要打造的是一個 AI 音樂分發社區，創作者的作品可以在這裡被分享、二創和互動，這種社區動力會吸引更多專業人士。Q：在合作模式下，如何提升持續造血能力？另外，版權在創作過程中如何劃分？周亞輝：版權是一個法律和社會層面正在重新定義的全球性課題，目前全世界都沒有確切答案，我們會跟著時代和互動的過程走。關於持續造血，我們可以參考串流媒體的發展史，AI 原生平台會像當年的串流媒體一樣，通過更充分、更高品質的供給來擴大聽歌使用者的基數，最終讓唱片公司和音樂人的獲益變大而非變少。Q：串流媒體和短影片時代讓音樂產業“神曲化”，AI 會製造更多神曲嗎？它會改變音樂的結構嗎？周亞輝：神曲化和嚴肅藝術會達到一種平衡。AI 的出現會大幅提升“草根神曲”的格調和質量標準。以前很多神曲雖然情感戳人，但製作粗糙，未來 AI 會補足這些創作者的短板，讓口語化的歌曲在製作檔次上也有大幅提升。我們希望人的思想越多元化越好，不管是專業的音樂人做出高品質經典，還是平凡人做出爆款，AI 都是最好的工具。Q：未來在這個App中，也會有音樂展示和打榜嗎，這在社區營運中很重要？周亞輝：我們很快會在海外上線一個完整的閉環展示 APP，它擁有完整的打榜和排名機制。我們在海外擁有多年的社區營運經驗，這是我們的核心優勢。新的品類會用新的方法來做，同時也會從我們原有的 K 歌社區獲取資源支援。Q：在技術不斷創新的過程中，Mureka架構的領先性能保持多久？周亞輝：架構需要不斷的微創新和資料積累。從 V1 到 V5 再到 V8，我們經歷了幾次大的技術架構重構。很多從我們這裡出去的人，即便在其他公司帶隊一年多，做出來的產品跟我們仍有很大差距，因為他們掌握的可能還是我們 V1 時代的技術。Q：您對Mureka的長期目標是什麼？周亞輝：我認為在 3 到 5 年內，我們的音樂產品在海外的 MAU（月活）能達到 3 到 5 億，DAU 過億是一個核心目標。一旦實現這個目標，就不用再“怕”大廠了。03AI 時代的 Super App，只會在大廠中產生Q：為什麼在剛剛發佈的投資筆記中，涉及到 AI 時代的 Super App 基本只提到了幾家大廠，而幾乎沒有提原生的 AI 模型公司？這是基於什麼考慮？周亞輝：這個問題的核心在於，原生 AI 公司即便能夠上市，整體的資源和產業“厚度”目前依然無法與大廠相比。大廠之所以被高度關注，是因為 AI Super App 的入口地位也直接關係到它們的生死存亡。這裡存在一個“穿鞋的”和“光腳的”邏輯：大廠作為“穿鞋的”，最怕的就是丟掉手中的船票。以電商平台為例，如果它們丟掉了 AI 原生 Super App 這個前端入口，那麼未來的購物行為極大機率會遷移到 AI 平台上，可能守不住自己的陣地。拿到這張船票對大廠來說意義重大。Q：那麼 AI Native（AI 原生）在中國的創新機會在那裡？周亞輝：國內依然有很多創新機會，只是不以“Super App”這種大而全的創業形式出現。對於國內目前的頭部模型公司，如智譜、Kimi、MiniMax 和百川，我非常佩服他們。對於這些創業者，我認為現階段只要堅守住，“Keep calm and move on”，保持平常心沿著道路不斷前進就足夠了。Q：您曾多次前往矽谷調研，您認為矽谷的 AI 生態與國內有什麼核心區別？周亞輝：美國資本市場非常鼓勵創新，會給予極高的資本溢價。這種溢價使得創業公司在短時間內估值劇增，從而形成非常明顯的先發優勢。美國大廠即便後發追趕，也不一定能超越創業公司，比如 OpenAI 這樣的公司正衝擊8300億美金估值，Anthropic3500億美金估值。在美國的資本生態下，即使是大廠要打贏他們也並不容易。Q：如果您現在要投資中國公司，會選擇那些方向？周亞輝：我已經很久不看投資了，目前我比較專注於大模型技術。現在的投資筆記更多是過往經驗的總結。Q：國內外火熱的 AI 助手工具您都會體驗嗎？對於最近開源火爆的 Clawdbot 怎麼看？周亞輝：只要是稍微有點熱點的工具我都會體驗。對於像 Clawdbot這樣開放原始碼的項目，我認為它目前更多是給人以啟發，但由於其複雜的安裝要求，能否持續發展成大眾產品還有待觀察。Q：OpenAI 目前的估值據傳言已經8300億美金了，您覺得二級市場還會給它更高的估值嗎？周亞輝：我覺得會。雖然 OpenAI 在 2025 年一度表現得比較浮躁，但在最近的GPT 5.2版本中，我感覺到他們迅速調整了狀態，產品能力表現很好。在面對 Gemini的衝擊時，OpenAI 的防守做得不錯。他們目前的短板在於原生多模態大模型的訓練尚未完全跑通，但這一塊遲早會解決。對於模型專長這裡存在誤判，太看重通過大模型做科學發現，Anthropic押注的程式碼、Gemini的原生多模態，商業化的空間都大得多。但我覺得科學發現也是需要通過程式碼實現的。Q：你判斷一家模型公司是否“守得住”的標準是什麼？是看 SOTA（最高水平）模型能力嗎？周亞輝：SOTA能力只是創造了一個“窗口期”。比如我們的 MurekaV8 模型可能給我們帶來半年的領先優勢，我們要利用這個窗口期去拼創作者、消費者和分發的生態。核心在於你的技術路徑是否正確，以及新產品能否持續把使用者招回來。Q：大模型產品的粘性應該如何建立？目前的模型記憶還不強，使用者遷移成本很低。周亞輝：確實。但粘性的建立是一個逐步的過程，就像抖音剛開始時的留存率也很差一樣。我們需要通過建立社交關係、創作者生態以及更深度的使用者記憶，來逐步提升留存。 (騰訊科技)

AI生成鄉村歌曲登頂Billboard榜首：這該讓所有人憤怒

最近在瀏覽海外音樂媒體時，我注意到一個重磅消息在鄉村音樂圈引發軒然大波。美國鄉村音樂文化媒體Whiskey Riff發布了一篇措辭嚴厲的文章，標題直指"一首AI生成的鄉村歌曲正在霸占Billboard榜單，這應該讓我們所有人憤怒"。過去一年，AI音樂工具如Suno、Udio的爆火讓AI創作音樂從實驗室走向大眾，但這些作品大多停留在社群媒體傳播的層面。而這次不同的是，一首完全由AI生成的歌曲，首次登上了Billboard官方榜單的第一名。這不再是技術演示或小圈子的新奇玩具，而是實地進入了主流音樂產業的核心評價體系。這個事件標誌著AI音樂已經從"能做"進入到"在做"，甚至"做得比真人還成功"的新階段。完整歌曲純享，還怪好聽一個不存在的歌手，登上了真實的榜單本周Billboard鄉村數位單曲銷售榜的冠軍，是一首名為《Walk My Walk》的歌曲，演唱者叫做"Breaking Rust"。如果你從未聽說過這個名字，那很正常——因為這個"歌手"根本不存在，它是一個完全由AI生成的虛擬項目。這首歌署名為Aubierre Rivaldo Taylor，此人同時也經營另一個AI音樂帳號"Defbeatsai"。有趣的是，Defbeatsai的社群媒體上明確標註了"AI生成"的身份，但Breaking Rust的Instagram個人簡介裡只寫著"亡命鄉村"和"我們的靈魂音樂"，對AI身份隻字未提。 Billboard在報導其他AI藝術家登榜時，證實了Breaking Rust確實是AI生成專案。這種選擇性的透明度引發了質疑：是技術展示，還是刻意隱瞞？數字背後的荒誕Breaking Rust自10月15日註冊Instagram以來，迅速累積了超過3萬粉絲，但翻閱留言區和粉絲列表，大量帳號表現出明顯的機器人特徵。更驚人的是，它在Spotify上的月度聽眾數達到了180萬。這個數字意味著什麼？作為對比，剛發布新專輯的真人鄉村歌手Colby Acuff，月度聽眾剛過100萬；以高產著稱的獨立音樂人Charley Crockett，月度聽眾也只有140萬。剛出現不到一個月、連真人都不是的"歌手"，流量超過了這些在舞台上摸爬滾打多年的藝術家。在這次榜單上，真人歌手Ella Langley的新單曲《Choosin' Texas》則排名第二。換句話說，如果沒有這首AI歌曲，她本該拿下冠軍。這不是假設性的損失，而是真金白銀的曝光機會和收入被一個演算法擠掉了。Billboard的沉默與產業的默許Whiskey Riff的作者聯繫了Billboard，詢問他們對AI歌曲上榜有什麼政策規定，是否會將AI作品與真人創作區分標註，但截至發稿沒有收到回應。根據Billboard自己的統計，過去幾個月至少有6位"AI或AI輔助藝術家"出現在各類榜單上，而他們也承認，實際數字可能更高，因為現在的AI音樂已經很難被識別出來。從目前的報導口徑看，Billboard似乎不認為這是個需要"解決"的問題。這種態度背後折射的是整個產業鏈的默許。串流平台Spotify只在乎播放量，不管播放的是誰的作品，反正都能賺錢。唱片公司雖然現在還沒公開表態，但以商業邏輯推演，未來推出自己的AI"藝人"只是時間問題——它不需要簽約、不需要巡演、不會鬧解約，還能7×24小時產出內容。作者在文章裡提到一個細節：一年前他寫過一篇關於AI藝術家在Spotify上傳翻唱歌曲的文章，結果收到了律師函要求撤稿。他沒有撤，現在看來，當時的爭議只是個開始。不是EDM，也不是"工具進化"或許有人會說，電子音樂（EDM）不也是用電腦做的嗎？為什麼AI音樂就不行？文章對此做了區分：EDM確實大量使用電腦和軟體，但製作過程依然需要真人藝術家投入才華、美感和創作精力去混音、編曲、設計聲音。那是人借助工具完成的創作。而AI音樂是直接輸入指令，讓演算法吐出成品，中間沒有任何人類的藝術勞動參與。這不是工具的進化，而是創作主體的替換。田納西州的立法與法律的空白今年早些時候，田納西州通過了法律，禁止未經授權使用AI"深度偽造"他人的聲音。這針對的是那些用AI模仿Taylor Swift、Morgan Wallen等明星聲音的作品，保護的是已有藝術家的權益。但對於像Breaking Rust這樣"原創"的AI音樂，法律幾乎沒有設置任何門檻。它不侵犯任何人的肖像權或版權，所以可以暢通無阻地上傳、發行、登榜。這個法律真空意味著，未來這類內容只會越來越多。誰在受益，誰在受傷在這個故事裡，平台、資本、演算法都是贏家。 Spotify繼續收流量費，Billboard繼續賣榜單關注度，AI工具公司繼續賣訂閱。真正受損的是兩類人：創作音樂的藝術家和消費音樂的聽眾。藝術家發現，花幾個月甚至幾年打磨的作品，市場表現可能不如一個演算法花幾分鐘生成的東西。這不是因為作品不好，而是因為演算法可以更快、更便宜、更批量地佔據專注力。聽眾則在不知不覺中，被餵食越來越多空洞、公式化、毫無靈魂的內容。 Breaking Rust的歌聽起來"還好"，但仔細品味會發現歌詞乏味、旋律套路、編曲平庸。它的成功不是因為藝術價值，而是因為演算法優化和流量操控。當這樣的內容開始佔據榜單、佔據推薦位、佔據聽眾的耳朵，真正有深度的音樂會越來越難被聽見。我們正在接近的臨界點Whiskey Riff的作者用了"point of no return"（無法回頭的臨界點）這個字。他擔心的是，當產業鏈的每個環節都默許甚至鼓勵AI內容時，這個趨勢會自我強化，直到真人創作徹底失去競爭力。這不是科幻小說裡的遠景，而是正在發生的現實。一個AI"歌手"已經拿到了Billboard冠軍，下一步會是什麼？ AI專輯橫掃年度榜單？葛萊美獎出現AI提名？音樂祭舞台上播放AI的"現場"？文章的標題說"這應該讓我們所有人憤怒"，但更現實的問題可能是：當憤怒無法改變商業邏輯時，我們還能做什麼？(矽星人Pro)

10秒生成4分鐘音樂，8GB視訊記憶體就能跑！已登Hugging Face趨勢榜一

DiffRhythm是一款新型AI音樂生成模型，能在10秒內生成長達4分45秒的完整歌曲，包含人聲和伴奏。它採用簡單高效的全diffusion架構，僅需歌詞和風格提示即可創作，還支援本地部署，最低只需8G視訊記憶體。音樂創作，尤其是完整歌曲的生成，一直是人工智慧領域的一大挑戰。 Suno、Udio等商用音樂生成大模型展現出驚人的音樂生成能力。但現有開放原始碼的音樂生成模型要麼只能生成人聲或伴奏，要麼依賴複雜的多階段架構，難以擴展到長音訊生成。而現在，AI音樂破局時刻到了！

他靠AI音樂狂賺 1200 萬美元，卻被FBI起訴面臨20年監禁，生成式音樂刑事第一案引發爭議

「躺著賺錢」「一鍵生成，月入 2w+」「0 基礎無腦出爆款」，這樣的標題是不是很常見，甚至有點心動？ AI 生成工具出來之後，做內容的確簡單太多了：一條 prompt 可以出音樂、出視頻，字幕口型也都可以自動配好。剩下的，只要放到平臺上，賺播放量分成就行——真·躺著賺錢。然而 FBI 看不下去了。周三時，美國北卡羅來納州一名男子，被 FBI 提出刑事指控：他用 AI 工具生成了數十萬首歌，給它們編造了千奇百怪的樂隊、作曲家名，放到流媒體上掙分成。關鍵是他戲做得很全，有「音樂」就要有「聽眾」。為了沖播放量他還做了許多 bot 帳號，忙不過來的時候還會外包出去。

為什麼在海外率先推出AI串流媒體音樂平台Melodio的是崑崙萬維？

有時候掌握核心技術，就可以步步領先。目前國際人工智慧領域，文生視訊技術上卻產生了一股中美倒掛的潮流。 2024年年初，OpenAI推出史上最像人類剪輯的大模型Sora，讓文生視訊的效果似乎跨越了好幾個時代。問題是，後續偃旗息鼓的表現，卻讓越來越多的人思考，OpenAI是不是為了商業化和融資又放了一個看不見的衛星。然而所有人都意想不到，進入2024年年中，4款來自於中國的文生視訊應用，卻迅速在國際人工智慧界引發了追捧的潮流。